以深度学习为代表的AI技术在过去十年中取得了跨越式的发展,在围棋、游戏、生物计算等领域取得重要突破,深度学习技术以其标准化、自动化、模块化的特性,正在推进AI进入到规模化应用的时代。
Gartner发布的《2022年人工智能技术成熟度曲线》报告显示,按发展周期分析,智能应用(AI applications)已进入稳步爬升期,距离生产成熟期只有2-5年的时间窗口。
人工智能只有实现规模化应用,才能真正作用于各行各业的自动化生产力提升、服务升级或是催生重大的创新。而要想完成这一目标就需要构建满足更大规模应用的深度学习平台,因此也对AI基础平台框架、算力提供方同时提出了挑战。深度学习平台如何实现架构创新?面对不同行业的场景需求,平台又该适配哪些性能?
Science与英特尔联袂推出的“架构师成长计划”第二季系列课程,为您带来第十期——《AI规模化应用时代的深度学习平台构建》。本期课程邀请了百度飞桨总架构师于佃海、英特尔超大规模云计算软件架构总监魏彬、智东西联合创始人/总编辑张国仁共同探讨深度学习平台的发展与实践,为相关领域的架构师们答疑解惑。
尽管算力、算法和数据是支撑人工智能发展的三大要素,在产业应用苛刻的环境下,它们也可能成为负担。能否在相克相济中找到深度学习平台的创新升级之路?来自百度飞桨的讲师于佃海在本期课程中做了分享:
人工智能技术已广泛渗透进经济生产活动的主要环节,AI规模化应用正在发生。于佃海将如今AI产业化遇到的困难与瓶颈归纳为“三大”和“三多”,其中“三大”即:深度学习的成功得益于大数据、大模型、大算力,但在产业应用中它们也会变为负担;如何更低成本地实现更高效的计算是非常现实的需求。从模型的开发训练到推理部署,深度学习应用这一过程中又面临着“三多”,即应用场景多、模型算法多、硬件芯片多等问题;如何全面降低产业应用的门槛,变得非常关键。
基于自监督学习的预训练大模型通用性强,只需少量参数即可实现迁移学习,但是大模型的参数量越来越大。深度学习平台作为共性平台,其重要性愈发突显,它下接芯片、上承应用,提供从开发训练到推理部署的全流程支撑,相当于智能时代的操作系统。飞桨是一个源于百度产业实践的开源深度学习平台,针对深度学习产业应用的痛点,百度飞桨认为可以从两方面出发优化架构:一方面提升平台性能,强化训练和部署能力;一方面降低使用门槛,以助于AI技术在广泛产业中实现落地。为实现这“一升一降”的目标,平台可以从数据、模型、算力三要素入手,全面协同优化。所谓“协同优化”是指优化其中一要素时需考量另两大要素的影响。例如,对于数据的优化也要考虑模型的问题;给模型提供高效的数据预处理工具;也要从硬件的视角考虑数据处理。从提升性能角度看,需要结合深度学习算法的特点和算力的特性,通过框架实现最终的高效计算。飞桨针对高性能学习计算的需求,提供了整套解决方案,这包括数据读取与预处理、模型实现、高性能算子、分布式策略、端到端的异步执行调度,在不同环节上解决挑战给出优化方案。
高效的分布式训练能力对于大模型来说尤为重要。面对多设备的分布式深度学习计算的场景,飞桨提出了端到端自适应的分布式架构,它可以自动感知异构硬件的特性和模型的特性,实现最优的并行策略的自动选择,并实现自动优化,最终达到高效的弹性执行。从降低应用门槛来看,百度研发了大数据加知识增强的文心系列预训练大模型,用户可以基于大模型作为预训练的通用模型底座,极大地降低了具体任务的应用成本。
此外,百度飞桨还构建了产业级开源模型库,包括核心框架、基础模型库、开发套件、工具组件和开发平台在内的产业级深度学习平台,通过全栈平台来全面降低AI产业应用的门槛。除了技术层面的优化,以深度学习主导的AI规模化应用也需要人才培养和构建完善的生态。百度飞桨在构建过程中非常注重AI人才培养和生态建设,例如建立AI学习与适应社区——AI Studio,目前它已经云集200多万的AI开发者,积累了400万的实训项目,为架构师们提供了一个开放的交流平台。在生态建设方面,硬件生态的提升关系到应用落地部署以及性能优化等诸多环节。百度飞桨与英特尔在核心框架、模型库、业务应用层面实现了全栈合作,覆盖了从开发训练到推理部署、安全加密等各个环节,支持广泛业务应用的优化和落地。
随着规模化产业应用时代的到来,AI应用在智慧城市、智慧金融、智能汽车等场景使用量和开发量得到明显提升,由此带来的算力需求也快速增长。本期课程讲师魏彬分享了英特尔如何通过软硬融合来引领全栈AI的架构发展。从英特尔的AI全景图可以看出,英特尔是从硬件和软件两个方面发力来加速AI的应用落地。
软硬协同加速AI应用,降低落地门槛是英特尔一贯坚持的方法论。通过软件生态的打造,英特尔期望看到更多的合作伙伴能够利用这些工具、高性能库和框架,达到业务快速落地的需求。以与飞桨合作为例,英特尔与飞桨构建的是在核心框架、模型库、业务应用上的全栈合作,应用场景辐射到工业、交通、能源、医疗、金融、农业各行业。
魏彬也谈到,软件的助力可以帮助硬件发挥算力价值最大化,例如数据中心级CPU里面内嵌的AI加速功能。
早在第二代至强®(Xeon)可扩展处理器Cascade Lake中,英特尔就集成了整个VNNI的指令用以支持加速INT8的数据类型;第三代至强® 可扩展处理器Ice Lake做了BF16数据支持;即将发布的新一代至强® 可扩展处理器Sapphire Rapids中,AMX(Advanced Matrix Extensions)进一步扩展了内置AI加速功能,同时可以支持INT8和BF16数据,最高可达8倍性能升。软件的配合使得不断进化的硬件性能得以充分发挥。
交流碰撞火花,沟通启迪灵感。本期嘉宾会话环节中,主持人张国仁和两位嘉宾于佃海、魏彬的讨论围绕“AI规模化应用时代的深度学习平台构建”展开,就中国AI规模化应用未来还需克服哪些方面的困难交流了观点。
于佃海:第一个问题是关于门槛和效果,AI技术和平台的提供方缺乏对产业的足够认知;第二个是成本和效率的问题,期待打造出更加理想的、AI软硬协同的平台和架构;第三,是需要进一步拓展AI能力边界的问题。魏彬:行业的挑战目前存在的一大门槛是落地期间,整个解决方案非常复杂。我有两点思考,一是平台如何支持广大的开发者在不同的硬件平台上做开发;二是如何把生态构建得更好,通过大家更紧密的合作,不断地在行业产生更具体的优化场景,深入到行业里去看到需求。张国仁:AI应用环境的改善是需要从软硬件层面持续不断去优化创新的,同时更需要构建完善的生态。越是有困难有挑战的地方,越是需要合作与联手的地方,越是行业里面看不清需求的地方,越需要一起去探索。除此之外,在AI进入规模化应用的阶段,哪些场景可以迅速实现落地?对于应用AI的企业,在选择深度学习平台和算力方案时,需要着重考量哪些因素?欲了解更多精彩内容和技术细节,请观看“架构师成长计划”第二季第十期的完整课程。
于佃海:把握时代的机遇,跨上AI的战车,以融合创新创造更大的价值。
魏彬:在AI规模化应用的时代,希望架构师们能够在软硬融合、全栈AI优化的道路上持续创新,赋能加速AI产业的应用落地。
张国仁:架构中国,创新未来。